4.2 Summarize og boxplot - statistikk for metriske variabler
Kommandoene summarize og boxplot brukes til å vise oppsummerende
statistikk for metriske/kontinuerlige variabler. I likhet med andre
statistikker i microdata.no, kan en lage statistikk også for
delpopulasjoner via IF-betingelser (man trenger ikke justere på datasettet i forkant).
Nedenfor vises eksempler for variablene inntekt og formue målt i hhv. 2019 og 2018, der populasjonen er alle bosatte i alderen 16-66 år.
Kommandoen summarize viser nøkkelstatistikk for de spesifiserte
numeriske variablene:
-
Gjennomsnitt
-
Standardavvik
-
Antall enheter med gyldig verdi
-
Første prosentilverdi (øvre grenseverdi)
-
Indre kvartilverdier (50% = medianverdi)
-
Siste prosentilverdi (nedre grenseverdi)
Det er også mulig å vise ginikoeffisient-verdier samt
interkvartilverdier (avstanden mellom 75. og 25. prosentil) ved å bruke
hhv. opsjonene gini og iqr.
Kommandoen boxplot viser en grafisk fremstilling gjennom et standard
boxplot med boks for de to midterste kvartilene, gjennomsnitt samt
minimums- og maksimumsverdi.

Om en holder musepekeren over de ulike områdene i boxplot-figuren, vil en kunne se hvilke verdier de ulike punktene representerer.
Kommandoen boxplot gir mulighet til å vise separate tall for gitte
kategorier representert ved en annen kategorisk variabel:
boxplot variabel1, over(variabel2)
Eksempel på boxplot for inntekt per 2000-01-01 fordelt på kjønn:

Verdiene for gjennomsnitt, standardavvik og gini påvirkes av at statistikkpopulasjonen winsoriseres før utregningen av tallene. Winsorisering vil si at man koder om ekstremverdier og setter dem til grenseverdien for hhv. første og siste percentil, jfr. verdiene for 1% og 99% i summarize-resultatet. Dette påvirker gjennomsnitt, standardavvik og gini slik at beregnet verdi blir noe lavere enn faktisk verdi. Dette kommer an på hvor skjev fordelingen for de respektive variabelpopulasjonene er. Ved normalfordeling vil ikke winsorisering gi noe særlig utslag.
Prosentil-, kvartil- og medianverdier påvirkes ikke av winsorisering, men vises med tresifret nøyaktighet.
Grafiske visninger av numeriske utregniner gjennom kommandoer som boxplot, barchart, histogram og hexbin påvirkes også av de nevnte personverntiltakene.
Regresjonsanalyser returnerer hovedsaklig estimater og i liten grad personidentifiserende opplysninger. Derfor er ikke disse gjenstand for tiltakene nevnt over. Du finner beskrivelser av tilgjengelige regresjonsanalyser i kapittel 5.
Mer info om winsorisering og øvrige personverntiltak finner du her
For mer informasjon om disse kommandoene, bruk kommandoene help summarize eller help boxplot. Dette vil vise syntaxeksempler og en fullstendig liste over tilgjengelige opsjoner som kan brukes til å tilpasse utseende til statistikken som genereres. F.eks. kan opsjonen gini brukes til å vise gini-koeffisientverdier i tillegg til standard summarize-resultat.